Vous êtes ici:

Flux de données avancé

Il y a deux options possibles pour la modélisation complète : Étape par étape, et Flux de données avancé. Utilisez l'assistant Étape par étape pour réaliser l'ETL en suivant une série d'étapes chronologiques simples. Utilisez le Flux de données avancé pour créer un diagramme de flux illustrant votre flux de données, et appliquez des fonctions avancées de flux de données pour créer un ETL et un modèle de données personnalisés. Ces fonctions avancées de flux de données comprennent l'apprentissage automatique, des moteurs de script, des opérations sur les colonnes, la préparation des données et plus encore. Poursuivez votre lecture pour une présentation du Flux de données avancé.

Le Flux de données avancé comporte deux aspects principaux :

Flux de données : un ensemble de fonctions et d'outils pour importer, nettoyer, embellir et préparer les données à des fins d'analyse
Modèle de données : un outil pour décrire la structure de vos données afin qu'elles puissent être facilement et correctement interrogées et analysées dans les outils analytiques comme Explorer.

Vidéos

Modélisation avancée des données

Modèles et sécurité

Flux de données

Le flux de données est conçu comme un ensemble d'outils « ETL » pour l'utilisateur final. ETL est le terme consacré qui est utilisé pour la préparation des données : Extract, Transform et Load. Les opérations d'ETL peuvent parfois être relativement complexes et détaillées. L'ensemble d'outils de flux de données de Pyramid est conçu pour faciliter l'accès à ces fonctionnalités ainsi que leur utilisation.

Le module Flux de données avancé est conçu comme une application à plusieurs étapes et commandée par flux, dans laquelle vous pouvez concevoir les différentes étapes nécessaires pour intégrer vos données à l'application en utilisant des outils fonctionnant par pointer-cliquer.

Sources de données : vous pouvez lire ou importer vos données à partir d'un grand nombre de sources de données correspondant à des fichiers (comme Excel), des bases de données relationnelles (comme Oracle), des sources de données non structurées (comme JSON) ou du contenu Web (comme des services REST).

Cibles des données : sélectionnez la destination de votre nouveau modèle de données. L'application peut pousser les modèles (que ce soit les données ou les schémas) vers plusieurs types de sources de données, ce qui vous permet de sélectionner la technologie qui vous convient le mieux.

Préparation : faites votre sélection parmi les nombreux assistants et fonctions qui vous permettront de conditionner et préparer vos données entrantes à des fins d'analyse.

Opérations colonne : utilisez diverses fonctions pour manipuler les données de votre colonne.

Jointure : utilisez ces fonctions pour fusionner vos ensembles de données horizontalement (jointure croisée) ou verticalement (union).

Apprentissage auto : utilisez cet ensemble d'algorithmes pour appliquer à vos données une logique d'apprentissage automatique afin d'enrichir vos analyses, en exploitant des informations générées par des algorithmes précis et performants. Vous pouvez également accéder à une place de marché de scripts d'apprentissage automatique pouvant être appliqués à vos données.

Script : utilisez cette fonctionnalité pour injecter des scripts personnalisés dans vos opérations de nettoyage des données. Les scripts peuvent inclure des opérations ETL simples qui ne sont pas directement prises en charge dans l'application ; mais il peut aussi s'agir de scripts d'apprentissage automatique spécialisés pour enrichir vos données et vous donner des informations plus détaillées sur ce qui pourrait se produire (analyse prédictive).

Modèle données

Le Modèle de données est l'outil qui vous guidera au fil des étapes nécessaires pour décrire la structure de la base de données que vous prévoyez d'interroger dans Explorer et les autres modules de l'application. Le modèle de données produit à partir de ce processus comprend des instructions pour gérer les éléments suivants :

Configuration : le type de modèle de données à générer ainsi que son nom.

Relations : comment les diverses tables et colonnes s'assemblent et comment elles doivent être reliées dans les requêtes.

Sélections de colonnes : quelles sont les colonnes (attributs) visibles, et quels sont leurs paramètres de type.

Hiérarchies : pour construire des hiérarchies virtuelles entre les différentes colonnes.

Sécurité des données

Les paramètres de sécurité vous permettent de définir qui peut voir vos bases de données, modèles de données et modèles d'apprentissage automatique. En réalisant ce paramétrage, vous avez à la fois la possibilité de partager des modèles de données avec d'autres utilisateurs et de contrôler quels seront les utilisateurs qui pourront voir et modifier vos bases de données, modèles et formulations d'apprentissage automatique.

Une fois que vous avez attribué les rôles